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Verfahren zum Betrieb einer Datenverarbeitungseinrichtung 

5?) Verfahren zum Betrieb einer Datenverarbeitungseinrich- 
tung mit programmier- und konfigurierbarer Zellstruktur, 
wobei die Datenverarbeitungseinrichtung eine Zellmatrix aus 
einer Vlelzahl orthogonal zueinander angeordneter, homo- 
gen strukturierter Zellen, wefche in Ihrer Funktion und 
Vernetzung durch eine Ladelogik frei programmierbar sind, 
enthalt, dadurch gekennzeichnet, daS 

a) ein Konfigurationsprogramm, bestehend aus einer Folge 
von Ladelogik-Befehlen, die Jewells die Funktion und Vernet- 
zung der einzelnen Zellen angeben, so daS sich aus einer Tail 
folge efna speziefle Konf iguration mit spezleller(en) Anwen- 
dung(en) ergibt, vorhanden ist, auf das die Ladelogik (30) 
Zugriff hat (Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wird, 

b) zunachst durch eine bestimmte Anzahl von Ladelogik-Be- 
fehlen eine (Configuration (Fig. 20b) mit spezial!ar(en) An- 
wendung(en), mittels.der ladelogik (30) zu Beginn als 
Startkonffguration in der Zell-Matrix (F!g.2 r Fig. 3) einge- 
stellt wird, 

c) durch eine Statemachine (45) Oder elnen Komparator (48) 
die Beendigung der Durchfuhrung einer Anwendung einer 
oder mehrerer Zellen erkannt wird, 

d) durch die Erkennung eine Ruckmeldung an die Ladelogik 
(30) erfolgt, die die Programmabarbeitung des Konfigura- 
tionsprogramms mit einer anderen Teflfolge (Fig. 21b, 
Fig. 22b) fortsetzt, welche nur Zellen umkonfiguriert, also 
neu erstellt, die die Durchfuhrung ihrer Funktion fur die 
aktueUe Anwendung bereits beendet haben oder nicht 
benotigt werden, so daS die Abarbeitung der Datenstrdme 
der an der aktuellen (Configuration noch beteiligten, parallel 
(z.B. Register 41, 42) oder geplpelined (z. B. Fig. 22a, 
Summierer 141 und Multiplizierer 149) arbeitenden Zellen, 
die sich noch in der Durchfuhrung ihrer Anwendung befin- 
den, nicht gestort wird. 
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Beschreibung 

Die vorliegende Erfindting bezieht sich auf Verfahren 
zum Betrieb einer Datenverarbeitungseinrichtung, d. h. 
elner Hardwareeinheit zur logischen und arithmeti- 
schen Manipulation (Verknfipfung) von in binarer Form 
vorliegenden Daten (Informationen). 

Nach dem Stand der Technik sind gewohnKche Mi- 
kroprozessoren (z. B. Intel 80 x 86) bereits bekannt Die- 
se sind aus fest vorgegebenen Einheiten ausgestaltet 
und verarbeiten Programme durch das Auskodieren 
von Befehlen (Microcode) und dadurch bestimmte Regi- 
stermanipulationen. 

Ebenfalls bekannt sind sogenannte FPGAs (z. B. aus 
US-Patent 4,870,302) die zum Aufbau von komplexen 
logischen Strukturen verwendet werden. Auf der 
Grundlage dieser Bausteine lassen sich Rechenwerke 
wie Addierer, Multiplizierer, eta innerhalb des Baustei- 
nes fQr die Diirchfuhrung einer . bestimmten Funktion 
oder Aufgabe konfigurieren. Durch die direkte Imple- 
mentierung einer Funktion in die entsprechenden Lo- 
gikbausteine konnen FPGAs Funktionen oftmals 
schneller ausfuhren als Mikroprozessorea Obwohl die 
bekannten Bausteine aufgrund ihrer SRAM-Architek- 
tur bereits umkonfiguriert werden konnen, existiert kein 
Mechanismus, um die Umkonfiguration schneil und dy- 
namisch wahrend der Laufzeit durchftthren zu konnen, 
insbesondere, wenn nur Teilbereiche des Bausteines mit 
einer neuen Funktion konfiguriert werden sollen, wah- 
rend andere Teile des Bausteines ihre Aufgabe fortset- 
zen. Durch die fehlende Interaktion zwischen einer kon- 
figurierenden Einheit und dem FPGA an sich, scheiden 
die Bausteine als funktional vollwertiger Ersatz fur Mi- 
kroprozessoren aus. 

Die der vorliegenden Erfindung zugrunde liegende 
Aufgabe besteht darin, ein Verfahren zum Betrieb einer 
Datenverarbeitungseinrichtung mit programmierbarer 
und konfigurierbarer Zell-Struktur — wobei eine Zelle 
als ein iogisches Schaltelement ahnlich US 4,870302 
(LE) oder eine besonders ausgestaltete Recheneinheit 
(ALU) definiert ist — bereitzustellen, das eine hdhere 
Paralielitat der Verarbeitung und eine flexiblere Verar- 
beitung von Daten gewahrieistet 

Dabei wird beschrieben, wie Bausteine, die aus einer 
Vielzahl von zwei- oder mehrdimensionalen Zeilstruk- 
turen aufgebaut sind, schneil und effizient nach Ablauf 
eines Arbeitsschrittes oder Teilarbehsschrittes, durch 
Interaktion zwischen dem Baustein und einer konfigu- 
rierenden Einheit, dynaraisch neu konfiguriert werden, 
ohne EinfluB auf noch ablauf ende Arbeitsschritte zu ha- 
ben. Die Notwendigkeit einer Umkonfiguration, bzw. 
das Ende eines Arbeitsschrittes, kann gemaB dieses Ver- 
f ahrens automatisch erkannt werden. Dadurch kann auf 
Grundlage dieses Verf ahrens ein vollwertiger Ersatz fur 
Mikroprozessoren geschaffen werden. 

Ein Vorteil der vorliegenden Erfindung liegt darin, 
daB die beschriebene Methode eine Ober einen weiten 
Raum skalierbare Paralielitat ermdglicht Hierbei wird 
eine Basis zum schnellen und flexiblen Aufbau von zum 
Beispiel neuronalen Strukturen geschaffen, wie sie bis 
dato lediglich mit erheblichem Aufwand durch Software 
simuliert werden kdnnen. 

Diese Aufgabe wird durch die im Patentanspruch I 
angegebenen Merkmale beziehungsweise Verfahren- 
schritte gelost Zur Verdeutlichung der Verfahrens- 
schritte wird beispielsweise ein integrierter Schaltkreis 
(Chip) mit einer Vielzahl insbesondere orthogonal zu- 
einander angeordneter Zellen mit je einer Mehrzahl je- 



881 C2 

2 

weils logisch gleicher und strukturell identisch angeord- 
neter Zellen gezeigt, sowie dessen interne Busstruktur, 
die zur Erleichterung der Programmierung auBerst ho- 
mogen ist. Grundsatzlich ist es denkbar innerhalb eines 
5 DatenfluBprozessors Zellen mit verschiedenen Zellogi- 
ken und Zellstrukturen unterzubringen, um so die Lei- 
stungsfahigkeit zu erhohen, indem zum Beispiel fur 
Speicheransteuerungen (Businterface) andere Zellen als 
fur arithmetische Operationen (Arithmetisch/logische 
to Einheiten (ALUs) existierea Insbesondere kann fOr neu- 
ronale Netze eine gewisse Spezialisierung von Vorteil 
seia Den Zellen ist eine Ladelogik zugeordnet, Qber die 
die Zellen je fur sich und gegebenenfalls gruppenweise 
in sogenannte MACROs (Menge von Zellen, welche zu- 
15 sammen eine definierte Aufgabe Iosen) zusammenge- 
faBt so programmierbar sand, daB einerseits beliebige 
logische Funktionen, andererseits aber auch die Ver- 
knflpfung der Zellen untereinander in weiten Bereichen 
verifizierbar sind. Dies wird erreicht indem jeder einzel- 
20 nen Zelle ein gewisser Speicherplatz zur Verfflgung 
stent, in dem die Konfigurationsdaten abgelegt sind An- 
hand dieser Daten werden Multiplexer oder Transisto- 
ren in der Zelle beschaltet um die jeweilige Zellfunktion 
zu gewahrleisten (siehe Fig. 12). 
25 Mit anderen als im Patentanspruch 1 gebrauchten 
Worten besteht der Kern der vorliegenden Erfindung 
darin, eine Methode fur einen DatenfluBprozessor vor- 
zuschlagen, der zeDuIar aufgebaut ist und dessen Zellen 
uber eine Ladelogik im arithmetisch-logischen Sinne 
30 quasi beliebig neu konfiguriert werden konnen. Dabei 
ist es von auBerster Notwendigkeit, daB die betreffen- 
den Zellen einzeln und ohne Beeinflussung der ubrigen 
Zellen oder gar einer Stillegung des gesamten Bausteins 
umkonfiguriert werden konnen. Ein DatenfluBprozes- 
35 sor gemaB dem vorliegenden Verfahren kann so wah- 
rend eines ersten Arbeitszyklusses als Addierer und 
wahrend eines spateren Arbeitszyklusses als Multipli- 
zierer "programmiertVgenutzt werden, wobei die An- 
zahl der fOr die Addition beziehungsweise die Multipli- 
40 kation erforderlichen Zellen durchaus unterschiedlich 
sein kdnnen. Dabei bleibt die Plazierung der bereits 
geladenen und wahrend des Umladeprozesses nicht tan- 
gierten MACROs erhalten; der Ladelogik beziehungs- 
weise dem Compiler obliegt es, das neu zu ladende MA- 
45 CRO innerhalb der freien Zellen zu partitionieren (d. h. 
das zu ladende MACRO so zu zerlegen, daB es sich 
optimal einfugen laBt). Die Ablaufsteuerung des Pro- 
gramms wird dabei von der Ladelogik flbernommen, 
indem sie gemaB dem momentan ausgefflhrten Pro- 
50 grammabschnitt die entsprechenden MACROs in den 
Baustein ladt, wobei der Ladevorgang von der spater 
beschriebenen Synchronisationslogik mitgesteuert 
wird, indem sie den Zeitpunkt des Umladens festlegt 
Daher entspricht ein DFP gemaB dem beschriebenem 
55 Verfahren nicht der bekannten von-Neumann-Archi- 
tektur, da die Daten- und Programmspeicher getrennt 
sind. Dies bedeutet jedoch gleichzeitig eine h6here Si- 
cherheit, da fehlerhafte Programme keinen CODE, son- 
dern lediglich DATEN zerstoren konnen. 
60 Um dem DatenfluBprozessor eine arbeitsfahige 
Struktur zu geben, werden einige Zellen, und zwar unter 
anderem die Eingabe-/Ausgabefunktionen (I/O) und 
Speichermanagementfunktionen (I/O) vor dem Laden 
der Programme geladen und bleiben fflr gewohnlich 
65 wahrend der gesamten Laufzeit konstant 

Dies ist erforderlich um den DatenfluBprozessor an 
seine Hardwareumgebung anzupassen. Die ubrigen Zel- 
len werden zu sogenannten MACROs zusammengefaBt 



DE 44 16 881 C2 



und konnen wahrend der Laufzeit nahezu beliebig und 
ohne Beeinflussung von NachbarzeHen oder anderen 
MACROS umkonfiguriert werden. Dazu sind die Zellen 
einzein und direkt adressierbar. 

Urn die Umstmkturiemng (das Umladen/Umkonfigu- 5 
rieren) der Zellen oder MACROs mit der Ladelogik zu 
synchronisieren, kann — wo notwendig, da nur Umgela- 
den werden darf, wenn die MACROs mit ihrer alten 
Tatigkeit fertig sind — eine Synchronisationsschaltung 
als MACRO auf dem DatenfluBprozessor unterge- 10 
bracht werden, die die entsprechenden Signale an die 
Ladelogik absendet Hierzu kann eventuell eine Modifi- 
kation der gewohnlichen MACROs von Noten sein, da 
diese dann der Synchronisations-Schaltung Zustandsin- 
formationen zur Verfugung stellen mQssen. 15 

Diese Zustandsinformationen signalisieren der Syn- 
chronisationsiogik fur gewdhnlich, daB einzelne MA- 
CROS ihre Aufgabe erledigt haben, was aus program- 
miertechnischer Sicht zum Beispiel die Terminierung 
einer Prozedur oder das Erreichen der Terminierungs- 20 
bedingung einer Schleife bedeuten kann. DJt das Pro- 
gramm wird an einer anderen Stelle fortgesetzt und die 
die Zustandsinformation absendenden MACROs kon- 
nen umgeladen werdea Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenf olge 25 
umgeladen werden. Hierzu kann eine Wertung der ein- 
zelnen Zustandsinformationen durch eine Logik (zum 
Beispiei einen (Prioritats-Arbiter) erfolgen. Eine derarti- 
ge — einfache — . Logik ist in Fig. 19 gezeichnet Die 



mit zwei Kaskadierungsmethoden denkbar: 

a) Nur die lokalen Verbindungen zwischen den Zel- 
len werden herausgefuhrt, was im vorliegenden 
Beispiel zwei IO-Pins pro Kantenzelle und vier IO- 
Pins pro Eckzelle bedeutet Allerdings hat der 
Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefuhrt werden, 
wodurch die Kaskadierung nicht vollstandig homo- 
gen ist (Globale Verbindungen zwischen mehreren 
Zellen, fur gewdhnlich zwischen einer kompletten 
Zellenreihe oder -spalte - siehe Fig. 1 — ; lokale 
Verbindungen existieren nur zwischen zwei Zellen). 
Fig. 6a zeigt den moglichen Aufbau innerhalb eines 
DFPs, Fig. 7a zeigt die daraus resuluerende Kaska- 
dierung von mehreren DFPs (drei gezeichnet). 
b) Die lokalen und globalen Verbindungen werden 
herausgefuhrt, was die Anzahl der bendtigten Trei- 
ber/IO-Pins und Leitungen drastisch erhoht, in un- 
serem Beispiel (Fig. 6b) auf sechs IO-Pins pro Kan- 
tenzelle und zwolf IO-Pins pro Eckzelle. Dadurch 
ist eine vollstandige Homogenitat bei der Kaska- 
dierung gegeben (Fig. 7b). 

Da die globalen Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
den konnen, kann der unangenehme Effekt auftreten, 
daB die Zahl der globalen Verbindungen nicht ausreicht, 
da bekanntlich jede Verbindung nur von einem Signal 



Logik besitzt sieben Eingangssignale durch die die sie- 30 genutzt werden kann. Urn diesen Effekt zu minimieren, 



ben MACROs ihre Zustandsinformation abgeben. In 
diesem Fall soil 0 f Or "in Arbeit" und 1 fur "fertig" stehen. 
Die Logik besitzt drei Ausgangssignale, die an die Lade- 
logik geffihrt werden, wobei der Zustand 000 als Ruhe- 
zustand gilt Liegt ein Signal an einem der sieben Ein- 
gange an, so findet eine Dezimal-BinaY-Umsetzung 
statt, so wird zum Beispiel Sync6 als 1 10 dargesteHt, was 
der Ladelogik anzeigt, daB das MACRO, welches SynoS 
bedient, seine Aufgabe beendet hat Liegen gleichzeitig 
mehrere Zustandsinformationen am Eingang an, so gibt 
die Synchronisationsschaltung das Signal mit der hoch- 
sten Prioritat an die Ladelogik weiter; liegen zum Bei- 
spiel SyncO, Sync4 und Sync6 an, so reicht die Synchro- 
nistaions-Schaltung zunachst Sync6 an die Ladelogik 
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kann nach einer gewissen Lange der globalen Verbin- 
dungen ein Treiber eingeschleift werden. Der Treiber 
hat zum einen eine Verstarkung des Signal s zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
Lasten, unbedingt erforderlich ist; zum anderen kann 
der Treiber in Tristate gehen und damit das Signal un- 
terbrechea Dadurch konnen die Abschnitte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werden, 
sofern der Treiber in Tristate ist, ansonsten wird ein 
Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 
ber der einzelnen globalen Leitungen auch einzein an- 
gesteuert werden konnen, d. h. ein globales Signal kann 
unterbrochen sein, das Nachbarsignal ist jedoch durch- 



weiter. Nachdem die entsprechenden MACROs umge- 45 geschleift Somit konnen auf einer globalen Verbindung 



laden sind und somit Sync6 nicht mehr anliegt wird 
Syno4 weitergeleitet usw. Zur Verdeutlkhung dieses 
Prinzips kann zum Beispiel der Standard-TTL-Baustein 
74148 in Betracht gezogen werden. 

Ober die Ladelogik kann der DatenfluBprozessor je- 50 
weils optimal und gegebenenfalls dynamisch auf eine zu 
losende Aufgabe eingestellt werden. Damit ist zum Bei- 
spiel der groBe Vorteil verbunden, daB neue Normen 



durchaus abschnittweise verschiedene Signale anliegen, 
wahrend die globale Nachbarverbindung tatsfichlich 
global von ein und demselben Signal verwendet wird 
(vergleicheFlg. 18). 

Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik kdnnen sogenannte 
Shared-Memories eingesetzt werden. So konnen zum 
Beispiel Programme von einer Festplatte, die im IO- Be- 
reich eines DatenfluBprozessors liegt zur Ladelogik 



oder dergleichen einzig und allein durch Umladen des 

DatenfluBprozessors umgesetzt werden kdnnen und 55 durchgereicht werden, indem die DatenfluBprozessoren 

nicht — wie bisher — einen Austausch mit entsprechen- die Daten von der Platte in den Shared-Memory schrei- 

dem Anfall von Elektronikschrott bedingen. ben und die Ladelogik sie dort abholt Dies ist besonders 

Die DatenfluBprozessoren sind untereinander kaska- wichdg, da hier, wie bereits erwahnt, keine von-Neu- 

dierbar, was zu einer beinahe beliebigen Erhdhung des mann- sondern eine Harvardarchitektur vorliegt Eben- 

Parallelisierungsgrades, der Rechenleistung, sowie der 60 so sind die Shared-Memories von Vorteil, wenn Kon- 



NetzgroBe in neuronalen Netzen fiihrt Besonders wich- 
tig ist hier eine klare homogene Verbindung der Zellen 
mit den Ein-/Ausgangs-Pins (IO-Pins) der DatenfluB- 
prozessoren, urn mdgiichst keine Einschrankungen auf 
die Programme zu haben. 

In Fig. 4 ist zum Beispiel die Kaskadierung von vier 
DFPs gezeigt Sie erscheinen der Umgebung wie ein 
groBer homogener Baustein (Fig. 5). PrinzipieU sind da- 
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stanten, die im Programm — das im Speicherbereich der 
Ladelogik liegt — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verkntipft werden soDen. 

Weiterbildungen der vorstehend definierten und um- 
schriebenen Erfindung sind Gegenstand der Unteran- 
spruche. 

Eine besondere Verwendung eines DatenfluBprozes- 
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sors gemaB dera beschriebenem Verfahrens ist darin zu gestellt sind (tatsachiich bedeutet eine gezeichnete Ver- 
sehen, daB er in Verbindung mit geeigneten Ein-/Ausga- bindung eine Mehrzahi von Leitungen); 
be-Einheiten einerseits und einem Speicher andererseits Fig, 5 die durch die Kaskadierung erreichte Homoge- 
die Basis fur einen kompletten (komplexen) Rechner nitat; 

bilden kann. Dabei kann ein GroBteil der IO-Funktio- 5 Fig. 6a die Struktur der E/A-Zellen, wobei die globa- 
nen als MACROs auf dem DatenfluBprozessor imple- len Verbindungen nicht herausgefuhrt werden, 
mentiert werden und es brauchen momentan lediglich Fig. 6b die Struktur der E/A-Zellen, jedoch mit her- 
Spezialbausteine (Ethernet-Treiber, VRAMS. . .) extern ausgefuhrten globalen Verbindungen; 
zuger^gtzuwerdeaBeieinerNormanderungoderVer- Fig. 7a die aus Fig. 6a resultierende Kaskadierung, 
besserung muB dann wie bereits angedeutet nur das 10 wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 
MACRO softwareseitig angepaBt werden; ein Eingriff renden Treiberzelien der kaskadierten Bausteine (ver- 
in die Hardware ist nicht notwendig. Es bietet sich hier gleiche hierzu Fig. 4) gezeichnet sind; 
an, einen IO-(Eingabe-/Ausgabe-) Stecker festzulegen, Fig. 7b die aus Fig. 6b resultierende Kaskadierung, 
uber welchen dann die Zusatzbausteine angeschlossen wobei eine Eckzelle, sowie die zwei mit ihr koramunizie- 
werdenkdnnen. 15 renden Treiberzelien der kaskadierten Bausteine (ver- 

Fig. 16 zeigt den stark vereinfachten Aufbau eines gleiche hierzu Fig. 4) gezeichnet sind; 
heute ublichen Rechners. Durch den Einsatz eines DFP- Fig. 8 einen bei spiel haften Aufbau einer Zelle mit 
Bausteins kdnnen erhebliche Teile eingespart werden Mukiplexern zur Auswahlder jeweiligen logischen Bau- 
(Flg. 17), wobei die entsprechenden herkdmmlichen steine; 

Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- 20 Fig. 9 ein Schaltsymbol fOr einen 8-Bit- Addierer; 
tur- und Videointerface, sowie der parailelen und seriel- Fig. 10 ein Schaltsymbol far einen aus acht 1-Bit- Ad- 
Ien Schnittstellen) als MACROs in die kaskadierten dierern bestehenden 8-Bit- Addierer nach Fig. 9; 
DFPs abgelegt werden. Nur die durch einen DFP nicht Fig. 11 eine logische Struktur eines 1-Bit-Addierers 
nachbildbaren Teile wie Speicher und Leitungstreiber entsprechendFig.10; 

mit nicht TTL-Pegeln oder fur hohe Lasten mussen ex- 25 Fig. 12 eine Zellenstruktur des 1-Bit-Addierers ent- 
tern zugeschaltet werden. Durch die Verwendung des sprechend Fig. 11; 

DFPs ist eine gunstige Produktion gegeben, da ein und Fig. 13 einen der ZeDenstruktur nach Fig. 9 entspre- 
derselbe Baustein sehr haufig verwendet wird, das Lay- chend aufgebauten 8-Bit- Addierer; 
out der Platine ist durch die homogene Vernetzung ent- Fig. 14 ein erstes Ausfuhrungsbeispiel einer Mehrzahi 
sprechend einfach. Zudem wird der Aufbau des Rech- 30 miteinander zu einem Rechenwerk gekoppelter inte- 
ners durch die Ladelogik bestimmt, die hier fur gewohn- grierter Schaltkreise (DatenfluBprozessor) nach Fig. 3; 
lich nur zu Beginn der Verarbeitung (nach einem Reset) Fig. 15 ein zweites Ausfuhrungsbeispiel einer Mehr- 
das DFP-Array ladt, wodurch eine gunstige Fehlerkor- zahl miteinander zu einem Rechenwerk gekoppelter in- 
rektur- und Erweitenmgsmdglichkeh gegeben 1st Ein tegrierter Schaltkreise (DatenfluBprozessor) nach 
derartiger Rechner kann insbesondere mehrere ver- 35 Fig. 3; 

schiedene Rechnerstrukturen simulieren, indem einfach Fig. 16 den stark schematisierten Aufbau eines her- 
der Aufbau des zu simulierenden Rechners in das DFP- kommlichen Rechners; 

Array geladen wird Zu bemerken ist, daB hierbei der Fig. 17 den mdglichen Aufbau desselben Rechners 
DFP nicht in seiner Funktion als DFP arbeitet sondern mit Hilfe eines Arrays aus kaskadierten DFPs; 
lediglich ein hochkomplexes und frei programmierbares 40 Fig. 18 einen Ausschnitt mit eingezeichneten (Lei- 
Zellarray zur Verfugung stellt, sich hierbei jedoch von tungs-)Treibern eines DFPs. 

herkommlichen Bausteinen in seiner besonderen guten Fig. 19 eine zum Beispiel mit einem Standard-TTL- 
Kaskadierbarkeit unterscheidet Baustein 74148 ausgefuhrte Synchronisationslogik; 

Ein weiteres Einsatzgebiet eines solchen Bausteins ist Fig. 20a, b, c ein Ausfahrungsbeispiel eines MACRO 
der Aufbau grofier neuronaler Netze. Sein besonderer 45 zur Addition zweier Zahlenreihen; 
Vorzugliegt hierbei in seiner hohenGatterdichte, seiner Fig. 21a eine Multiplikationsschaltung (vergleiche 
ausgezeichneten Kaskadierbarkeit, sowie seiner Homo- Fig. 20); 

genitSt. Ein Lernvorgang, der eine Anderung einzelner Fig. 21b die interne Struktur des DFPs nach dem La- 
axiomatischer Verbindungen beziehungsweise einzel- den (vergleiche Fig. 20b); 

ner Zellfunkuonen beinhaltet ist auf ublichen Baustei- 50 Fig. 21c die Arbeitsweise des DFPs im Speicher, so- 
nen ebenso schlecht durchfuhrbar, wie der Aufbau gro- wie o5e Zustande der Zahler 47, 49; 
Ber homogener und gleichzeitig flexibler Zellstrukturen. Fig. 22a, b, c eine Kaskadenschaltung, wobei der Ad- 
Die dynamische Umkonfigurierbarkeit erm6glicht erst- dierer aus Fig. 20 und der Multiplizierer aus Fig. 21 zur 
malig die optimale Simulation von Lernvorgangen. Steigerung der Rechenleistung hintereinander geschal- 

Die vorliegende Erfindung wird im folgenden anhand 55 tetsind; 
der weiteren Figuren naher erlautert Insgesamt zeigen In Rg. 9 ist ein Schaltsymbol eines 8-Bit-Addierers dar- 

Fig. 1 ein aus vier Zellen bestehendes unprogram- gestellt Das Schaltsymbol besteht aus einem quadrati- 
miertes SUBMACRO X (analog einem 1-Bit-Addierer schen Baustein 1 mit acht Eingangen A 0. . J fur ein 
gemaB Fig. 12 beziehungsweise Fig. 13) mit den erfor- erstes Datenwort A und acht Eingangen B 0. . .7 fOr ein 
derlichen LeitungsanschlOssen; 60 zweites (zu addierendes) Datenwort B. Die jeweils acht 

Fig. 2 einen Teilausschnitt eines integrierten Schalt- Eingange Ai, Bj (i « 0. . .7) werden ergSnzt durch einen 
kreises (Chip) mit einer Vielzahl von Zellen und einem weiteren Eingang Oein Qber den dem Baustein 1 gege- 
separierten SUBMACRO X gemaB Fig. 1 ; benenf alls ein Obertrag zugeleitet wird. Der Baustein 1 

Fig. 3 einen integrierten Schaltkreis (Chip) mit einer hat funktions- und bestimmungsgemaB acht Ausgange S 
Orthogonalstruktur einer quasi beliebigen Vielzahl von 65 0. . .7 fur binaren Summanden und einen weiteren Aus- 
Zellen und einer extern zugeordneten Ladelogik; gang Oaus fur den gegebenenfalls bestehenden Ober- 

Fig. 4 die Kaskadierung von vier DFPs, wobei die trag. 
Verbindung zwischen den IO-Pins nur schematisch dar- Das in Fig. 9 dargestellte Schaltsymbol ist in Fig. 10 
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als Anordnung sogenannter SUBMACROS dargestellt risch separiert, das letztlich als aus vier einem l-Bit-Ad- 
Diese SUBMACROS 2 bestehen je aus einem 1 -Bit- Ad- dierer entsprechend programmierten Zellen (10 gemSB 
dierer 3 mit je einem Eingang fur die entsprechenden Kg. 12) bestehende Untereinheit zu betrachten ist 
Bits desDatenwortsund einem weiteren Eingang fur ein Das in Kg. 13 separierte SUBMACRO "X* ist in 
Obertragsbit Die 1-Bit-Addierer 3 weisen daruberhin- 5 Fig. 1 als Teil eines integrierten Schaltkreises (Chip) 20 
aus einen Ausgang fur den Summanden und einen Aus- gemeinsam mit Leitungs- und Datenanschlussen darge- 
gang fur den Obertrag Oaus auf. stellt Das SUBMACRO "X" besteht aus den vier Zellen 

In Fig. 11 ist die binare Logik eines 1-Bit-Addierers 10 die entsprechend der orthogonalen Struktur je Seite 
beziehungsweise eines SUBMACROS 3 nach Fig. 10 vier Datenanschlusse (also insgesamt sechzehn Daten- 
dargestelit Analog zu Fig. 10 weist diese Schaltlogik je 10 anschhlsse je Zelle) aufweisen. Die Datenanschlusse 
einen Eingang Ai, Bi fur die konjugierten Bits der zu verbindenjeweilsbenachbarte Zellen, so daB ersichtlich 
verknupfenden Daten auf; ferner ist ein Eingang Oein wird, wie beispielsweise eine Dateneinheit von Zelle zu 
fur den Obertrag vorgesehen Diese Bits werden den Zelle durchgeschleust wird Die Ansteuerung der Zellen 
dargestellten Verbindungen beziehungsweise Verknup- 10 erfolgt einerseits Qber sogenannte lokale Steuerun- 
fungen entsprechend in zwei ODER-Gliedern 5 und drei 15 gen, das sind lokale Leitungen, die mit alien Zellen ver- 
NAND-Gliedern 6 verknupft, so daB am Ausgangsan- bunden sind, und andererseits uber sogenannte globale 
schluB Si und am Ausgang fur den Obertrag Oaus die Leitungen, d h. Leitungen, die uber den gesamten inte- 
einem Volladdierer entsprechenden Verknupfungser- griertenSchaltkreis (Chip) 20 gefuhrt sind 
gebnisse(Si,Oaus)anstehen. In Fig. 2 ist ein vergroBerter Ausschnitt eines inte- 

Auf der Grundlage logisch und strukturell identischer 20 grierten Schaltkreises 20 dargestellt, der mit einem or- 
Zellen 10, deren einzelne logische Bausteine der auszu- thogonalen Raster von Zellen 10 belegt ist Wie in Fig. 2 
fuhrenden VerknQpfungsfunktion entsprechend ver- angedeutet kann so zum Beispiel eine Gruppe von vier 
schaltet werden, wird der 8-bit Addierer 2 in geeigneter Zellen 10 als SUBMACRO "X" ausgewShlt und dem 
Weise in die ZeUstruktur implementiert Der Vorgang 1-Bit-Addierer entsprechend Fig. 12 gemaB program- 
geschieht mittels der noch zu beschreibenden Ladelo- 25 miert beziehungsweise konfiguriert werden. 
gik. GemaB der in Fig. 12 gezeigten, von der Schaltlogik Ein volistandiger integrierter Schaltkreis gemaB dem 
nach Fig. 11 abgeleiteten Verknupfungslogik fur einen beschriebenen Verfahren (DFP) 20 ist beispielsweise in 
1-Bit-Addierer sind je zwei Zellen 10.1, 10.2 bezuglich Kg. 3 dargestellt Dieser integrierte Schaltkreis 20 be- 
der logischen Bausteine insoweit gleich, daB jeweils ein steht aus einer Vielzahl im orthogonalen Raster ange- 
ODER-Glied 5 und ein NAND-Glied 6 aktiviert sind 30 ordneter Zellen 10 und weist an seinen AuBenkanten 
Eine dritte Zelle 103 wird nur ais Leitungszelle (Leiter- eine entsprechende Anzahl von LeitungsanschiQssen 
bahnzelle) benutzt und die vierte Zelle 10.4 ist bezuglich (Pins) auf, uber die Signale, insbesondere Ansteuersi- 
des dritten NAND-Gliedes 6 aktiv geschaltet Das aus gnale und Daten zugefuhrt und weitergeleitet werden 
den vier Zellen 10.1. . . . 10.4 bestehende SUBMACRO 2 kdnnen. In Fig. 3 ist wiederum das SUBMACRO "X" 
steht somitstellvertretend fur einen 1-Bit-Addierer, dh. 35 gemaB Fig. 13/Fig. 1 abgegrenzt; daruberhinaus sind 
ein 1-Bit-Addierer einer Datenverarbeitungseinrich- auch weitere SUBMACROS separiert, die spezifischen 
tung nach Art der vorliegenden Erfindung kann uber Funktionen und Vernetzungen entsprechend zu Unte- 
vier entsprechend programmierte (konfigurierte) Zellen reinheiten zusammengefafit sind Dem integrierten 
10.1. ... 10.4 verifiziert werden. (Der Vollstandigkeit Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 
halber soil angemerkt werden, daB die einzelnen Zellen 40 beziehungsweise ubergeordnet, uber die der integrierte 
ein erheblich umfangreicheres Netzwerk von logischen Schaltkreis 20 programmiert und konfiguriert wird Die 
Bausteinen, sprich Verknupfungsgliedern, und Invertern Ladelogik 30 teflt letztlich dem integrierten Schaltkreis 
aufweist, die jeweils dem aktueileh Bef ehl der Ladelogik 20 mit, wie er arithmetisch-logisch zu arbeiten hat 
zufolge aktiv geschaltet werden kdnnen. Neben den lo- Anhand von Fig. 14 beziehungsweise Fig. 15 soil im 
gischen Bausteinen ist auch ein dichtes Netz von Ver- 45 folgenden eine Rechnerstruktur beschrieben werden, 
bindungsleitungen zwischen den jeweils benachbarten die auf den im vorstehenden definierten und erlauterten 
Bausteinen und zum Aufbau von zeilen- und spaltenwei- integrierten Schaltkreis 20 aufbaut 
sen Busstrukturen zur Datenubertragung andererseits GemaB dem in Fig. 14 dargestellten ersten Ausfuh- 
vorgesehen, so daB Uber eine entsprechende Program- rungsbeispiel ist — analog zur Anordnung der Zellen — 
mierung seitens der Ladelogik quasi beliebige logische 50 im Orthogonalraster eine Mehrzahl von integrierten 
Verknapfungsstrukturen implementiert werden kon- Schaltkreisen 20 angeordnet, deren jeweils benachbarte 
nen). fiber lokale BUS-Leitungen 21 miteinander gekoppelt 

Der Vollstandigkeit halber ist in Fig. 13 der Zellen- beziehungsweise vernetzt sind Die — beispielsweise 
aufbau eines 8-Bit-Addierers in seiner Gesamtheit dar- aus sechzehn integrierten Schaltkreisen 20 bestehende 
gestellt Die in Fig. 13 gezeigte Struktur entspricht inso- 55 — Rechnerstruktur weist Ein-/Ausgangsleitungen IO 
weit der nach Fig. 10, wobei die in Fig. 10 symbolisch als auf, uber die der Rechner quasi mit der AuBenwelt in 
SUBMACROS 3 dargestellten 1-Bit-Addierer jeweils Verbindung steht, d h. korrespondiert Der Rechner ge- 
durch eine vier-zelhge Einheit 10.1. . . . 10.4 ersetzt sind maB Fig. 14 weist ferner einen Speicher 22 auf, der dem 
Bezogen auf einen DatenfluBprozessor gemaB des be- dargestellten Ausfuhrungsbeispiel entsprechend aus 
schriebenen Verfahrens bedeutet dies, daB zweiunddrei- eo zwei separierten Speichern, zusammengesetzt aus je- 
3ig Zellen der zur Verfugung stehenden Gesamtheit weils RAM, ROM sowie einem Dual-Ported RAM als 
von Zellen einer zellular mit logisch identischem Layout shared memory zu der Ladelogik geschaltet, besteht, die 
gefertigten Schaltungsplatine seitens der Ladelogik so gleichermaBen als Schreib-Lese-Speicher oder auch nur 
angesteuert und konfiguriert beziehungsweise pro- als Lese-Speicher realisiert sein konnen. Der soweit be- 
grammiert werden, daB diese zweiunddreiBig Zellen ein 65 schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 
8-Bit- Addierer bilden. beziehungsweise ubergeordnet, mittels der die inte- 

In der Darstellung nach Fig. 13 ist uber eine strich- grierten Schaltkreise (DatenfluBprozessor) 20 program- 
punktierte Umrahmung ein SUBMACRO "X" zeichne- miert und konfiguriert und vernetzt werden. 
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Die Ladelogik 30 baut beispielsweise auf einem 1 (gem&B Fig. 9) zur B2dung der AdreBdaten, wobei 
Transputer 31, d h. einem Prozessor mit mikrocodier- diese MACROs 1 wie folgt geschaltet sind: Ober jeweils 
tem Befehlssatz auf, dem seinerseits ein Speicher 32 einen Eingang werden die zu verknupfenden Adressen 
zugeordnet ist Die Verbindung zwischen dem Transpu- fur An, Bn, Cn zugefuhrt Diese Adressen werden mit den 
ter 31 und dem DatenfiuBprozessor basiert auf einer 5 Ausgangssignalen eines Zahlers 47 addiert und mit der 
Schnittstelle 33 fur die sogenannten Ladedaten, & h. die Statemachine 45 so verknupft, daB am Ausgang die neue 
Daten die den DatenfiuBprozessor aufgabenspezifisch Zieladresse ansteht Der Zahler 47 und der Komparator 
programmieren und konfigurieren und einer Schnitt- 48 haben dabei die Aufgabe sicherzustellen, daB jeweils 
stelle 34 fur den bereits genannten Rechnerspeicher 22, die richtigen Summanden verknupft werden und daB 
d. h. den Shared-Memory-Speicher. 10 jeweils am Ende der Zahlenreihen, d. h. bei n =» 9 abge- 

Die in Fig. 14 dargestellte Struktur stellt so einen brochen wird. 1st die Addition vollendet, so wird in der 
kompletten Rechner dar, der uber die Ladelogik 30 je- Zustandsmaschine 45 ein STOP-Signal generiert und die 
weils fall- beziehungsweise aufgabenspezifisch pro- Schaltung passiv geschaltet Ebenso kann das STOP-Si- 
grammiert und konfiguriert werden kann. Der Vollstan- gnal als Eingangssignal fur eine Synchronisations-Schal- 
digkeit halber sei noch angemerkt, daB — wie in Verbin- 15 tung verwenden werden, indem die Synchronisationslo- 
dung mit der Ladelogik 30 uber Pfeile angedeutet — gik anhand dieses Signals erkennen kann, daB die Ge- 
mehrere dieser Rechner vernetzt, d. h. miteinander ge- samtfunktion "Addieren" gemaB dem nachf olgend be- 
koppelt werden konnen. schriebenen ML1 Programm beendet ist und die MA- 

Ein weiteres Ausfiihrungsbeispiel einer Rechner- CROs somit durch Neue ersetzt werden kdnnen (zum 
struktur ist in Fig. 15 dargestellt Im Unterschied zu 20 Beispiel konnte STOP das Signal SyncS sein). 
Fig. 14 sind dabei neben den lokalen BUS-Leitungen Der Zeitablauf in der 45 (STATEMACHINE) laBt 
zwischen den benachbarten integrierten Schaltkreisen sich dabei wie folgt darstellen, wobei noch anzumerken 
20 noch ftbergeordnete zentrale BUS-Leitungen 23 vor- ist, daB in der Zustandsmaschine 45 eine Verzdgerungs- 
gesehen, um zum Beispiel spezifische Ein- beziehungs- zeit T (in Form von Taktzyklen) zwischen der Adreflge- 
weise Ausgangsprobleme ldsen zu konnen. Auch der 25 nerierung und dem Datenerhalt implementiert ist: 
Speicher 22 (Shared-Memory) ist uber zentrale BUS- 
Leitungen 23 mit den integrierten Schaltkreisen 20 ver- — Im Zyklus 1 wird jeweils der Zahler 47 um 1 
bunden, und zwar wie dargestellt jeweils mit Gruppen erhoht und im Komparator 48 wird gepruft, ob n > 
dieser integrierten Schaltkreise. Die in Fig. 15 darge- 9 erreicht ist; synchron zu diesen Operationen wer- 
steflte Rechnerstruktur weist die gleiche Ladelogik 30 30 den die Adressen fur A, B,Cberechnet; 
auf, wie sie anhand von Fig. 14 erlautert wurde. — im Zyklus (T + 1) werden die Summanden A, B 

In Verbindung mit Fig. 20a soli eine aus erfindungsge- ausgelesen und addiert ; 

raaBen DatenfluBprozessoren aufgebaute Additions- — im Zyklus (T + 2) wird die Summe C abgespei- 

schaltung erlautert werden. Ausgegangen wird von zwei chert 
Zahlenreihen A n und B n fur stotliche n zwischen 0 und 35 

9; die Aufgabe besteht darin, die Summe Q = Ai -f Bj Mit anderen Worten heiBt dies, daB die Operations- 
zu bilden, wobei der Index i die Werte 0 n < 9 schleife und die eigentliche Addition gerade (T + 2) 
annehmen kann. Taktzyklen erfordert Im allgemeinen sind fflr T 2.. 3 

Bezugnehmend auf die Darstellung nach Fig. 20a ist Takte erforderlich, so daB verglichen mit den herkdmm- 
die Zahlenreihe A n in einem ersten Speicher RAMI 40 lichen Prozessoren (CPU), die im allgemeinen 50 bis 
abgespeichert und zwar zum Beispiel ab einer Speicher- mehrere 100 Taktzyklen bedingen, eine ganz wesentli- 
adresse 1000 h; die Zahlenreihe B n ist in einem Speicher che Rechenzeit-Reduzierung moglich wird 
RAM2 an einer Speicheradresse OdfaOh abgespeichert; Die anhand von Fig. 20 aufgezeigte Configuration 
die Summe C n wird in den RAMI eingeschrieben und soli im folgenden uber eine hypothetische MACRO- 
zwar unter der Adresse lOOah. 45 Sprache ML1 nochmals erlautert werden: 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- Es existieren die Zahlenreihen A n und B n 
Iich die einzelnen durch die Steuerschaltung freigegebe- n: 0 n < » 9 

nen Taktzyklen hochzahlt Dies soli im Weiteren zur Es soilen die Summen Q *= At + Bi mit i e N gebildet 

Verdeutlichung der Umkonfigurierbarkeit einzelner werden. 

MACROs ohne Beeinflussung der an der Umkonfigurie- 50 const n = 9; 

rung nicht beteiligten MACROs dienen. array A(n] in RAM[1] at 1000 h; 

Fig. 20a zeigt zunachst die eigentliche Additions- array Bf n] in RAM[2] at OdfaOh; 
schaltung 40, die aus einem ersten Register 41 zur Auf- array qn] m RAM[1] at lOOah; 
nahme der Zahlenreihe A n und einem zweiten Register for i « 0 to n with (ApJ BQJ C(TD 
42 zur Auf nahme der Zahlenreihe B n besteht Den bei- 55 Al; 
den Registern 41/42 ist ein 8-Bit-Addierer entsprechend C - Al = A + B; 
dem in Fig. 9 dargestellten MACRO 1 nachgeschaltet next; 

Der Ausgang des MACRO 1 fOhrt Qber eine Treiber- RAM[1] ist der 1. Speicherbiock 
schaltung 43 zurflck zum Speicher RAMI. Die Takt- RAM[2] ist der 2. Speicherbiock 
beziehungsweise Zeitsteuerung der Additionsschaltung so at folgt die Basisadresse der Arrays 
40 erf olgt Qber eine von einem Taktgenerator T ange- for ist der Schleifenbeginn 
steuerte Zustandsmaschine (STATEMACHINE) 45, die next ist das Schleifenende 

mit den Registern 41, 42 und der Treiberschaltung 43 with ( ) folgen die Variablen, deren Adressen durch die 
verbunden ist Z&hlvariable i bestimmt werden 

Die Additionsschaltung 40 wird funktional durch eine 65 T folgt die Verzdgerungszett fur eine Statemachine in 
AdreBschaltung 46 zur Generierung der AdreBdaten fQr Taktzyklen 

die abzuspeichernden Additionsergebnisse erganzt Die Das Timing der Zustandsmaschine (Statemachine) sieht 
AdreBschaltung 46 besteht ihrerseits aus drei MACROs demnach foIgendermaBen aus: 
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Zyklus Aktivitat gebildet werden. 

1 Zahler erhohen, Vergleich auf > 9 (ja Abbruch) path D; 
und const n =* 9; 

AdressennlrA,B,C,berechnen array A[n] in RAMfl] at 1000 h 

T + 1 A, B, holen und addieren 5 array B[n] in RAM[2] at OdfaOh 

T + 2 Nach C speichern array C[n] in RAM[1 ] at 1 OOah 

Das heiflt — wie bereits erwahnt — die Schleife und die for i = 0 to n with (Ap], B[iJ C[i]) 
AdditionbendugengeradeeinmalT-H2Taktzyklen. Al; 

Fig. 20b zeigt den groben Aufbau der einzelnen D = A1=A+B; 
Funktionen (MACROs) in einem erfindungsgemaBen io C = Al - DxB; 
DFP. Die MACROs sind in ihrer etwaigen Lage und next; 

GrdBe eingezeichnet und mit den anhand von Fig. 20a path D definiert einen internen nicht aus den DFP 
erlauterten entsprechenden Nummern versehen. herausgefahrten Doppelpfad Die Operation bendtigt 

Fig. 20c zeigt den groben Aufbau der einzelnen Funk- wegen einem zusatzlichen Al einen Taktzyklus mehr als 
tionen auf die RAM-B16cke 1 und 2: Die Sumraanden 15 vorher, ist insgesamt jedoch schneller als die beiden 
werden nacheinander in aufsteigender Reihenfolge aus obigen Programme in Folge ausgefuhrt, da zum einen 
den RAM-B16cken 1 und 2 ab Adresse 1000 h bezie- die Schleife nur einmal durchlaufen wird, zum zweiten 
hungsweise OdfaOh gelesen und in RAM-Block 1 ab nicht umgeladen wird 

Adresse lOOah gespeichert Zudem sind die Zahler 47 Prinzipiell konnte das Programm auch so formuliert 
und 49 gegeben, beide zahlen wahrend des Ablaufs der 20 werden: 
Schaltung von 0 bis 9. const n *= 9; 

Nach Beendigung des beschriebenen Programms soli array A[n] in RAM[1] at 1000 h 
em neues Programm geladen werden, das die Ergebnis- array B[n] in RAM[2] at OdfaOh 
se weiterverwertet Die Umladung soli zur Laufzeit er- array C[n] in RAM[1] at lOOah 
folgen. Das Programm ist im Folgenden gegeben: 25 for i = 0 to n with (AJTJ, BpJ C[iJ) 

Es existieren die Zahlenreihen A 0 und Bn, wobei An Al; 
durch das Ergebnis C n des vorher ausgefOhrten Pro- C = A2 = (A+B)xB; 
gramms gegeben ist: next; 

n: 0 n < « 9 Sind die Gatterlaufzeiten des Addierers und des Mul- 

Es sollen die Produkte Q = AixBj mit i e N gebildet 30 tiplizierers zusammen kleiner als ein Taktzyklus, kann 
werden. die Operation (A + B)xB auch in einem Taktzyklus 

const n = 9 durchgefuhrt werden, was zu einer weiteren erhebK- 

array A[n] in RAM[1] at lOOah chen Geschwindigkeitssteigerung fuhrt: 

array B[n] in RAM[2] at OdfaOh const n « 9; 

array C[n] in RAM[1] at 1015 h 35 array Ajn] in RAM[1] at 1000 h 

for i .(0 to n with (ApJ B[iJ C[iJ) array B[n] in RAM[2] at OdfaOh 

Al; array C[n] in RAM[t] at lOOah 

C =» Al - AxB; fori = 0ton with (A[ijB[ijqi]) 

next Al; 

Die Beschreibung der einzelnen Befehle ist bereits 40 C = Al = (A+B)xB; 
bekannt, x symbolisiert die Muitiplikation. next; 

Die MACRO-Struktur ist in Fig. 21a beschrieben, Anhand von Fig. 8 soli ein einf aches Beispiel eines 
Fig. 21b gibt in bekanhter Weise die Lage und GrdBe Zellenaufbaus eriautert werdea Die ZeDe 10 umfaBt 
der einzelnen MACROs auf dem Chip an, besonders zu zum Beispiel ein UND-GIied 51, ein ODER-GIied 52, ein 
beachten ist die GrdBe des Multiplizierers 2 in Vergleich 45 XOR-Glied 53, einen Inverter 54 sowie eine Register- 
zu Addierer 1 aus Fig. 20b. In Fig. 21c ist erneut die zeUe55.DieZeUel0weisto^Qberhinauseingangsseitig 
Auswirkung der Funktion auf den Speicher aufgezeigt, zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 
Zaliler 47 zahlt erneut von 0 bis 9, & h. er wird beim der Zelle entsprechend Hg. t) zum Beispiel je sechzehn 
Nachladen der MACROs zurQckgesetzt EingangsanschlQssen INI, IN2 auf. Ober diesen 

Besonders zu beachten ist der Zahler 49. Angenom- 50 (16 : 1 ^Multiplexer 56/57 werden jeweils die den ge- 
men, das Umladen der MACROs betragt 10 Tateyklen. nannten logischen Gliedern UND, ODER, XOR 51. . 53 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein zuzuffihrenden Daten ausgewahlt Diese logischen Glie- 
dynamisch umgeladen wird, <L h. nur die umzuladenden der sind ausgangsseitig mit einem (3 : 1)-Multiplexer 58 
Teile werden gestoppt, der Rest arbeitet weiter. Das gekoppeit, der seinerseits mit dem Eingang des Inver- 
ffihrt nun dazu, daB der Zahler wahrend des Programm- 55 ters 54, einem Eingang der Registerzelle 55 und einem 
ablaufs von 19 auf 29 hochlauft (Hiermit soil das dyna- weiteren (3 : 16>Multiplexer 59 gekoppeit ist Der letzt- 
mische unabhangige Umladen demonstriert werden, in genannte Multiplexer 59 ist zusatzlich mit dem Ausgang 
jedem bisher bekannten Baustem wurde der Zahler er- des Inverters 54 und einem Ausgang der Registerzelle 
neut von 0 auf 9 lauf en, da er zurflckgeset2t wird). 55 verbunden und gibt das Ausgangssignal OUT ab. 

Bei naherer Betrachtung des Problems stelit sich die eo Der Vollstandigkeit halber sei angemerkt, daB die Re- 
Frage, warum nicht beide Operationen, die Addition gisterzeUe 55 mit einem Reset-Eingang R und einem 
und die Muitiplikation in einem Zyklus durchgefuhrt Takteingang gekoppeit ist 

werden, also die Operation: Dem im vorstehenden erlauterten Zellenaufbau, d. h. 

Es existieren die Zahlenreihen A n und Bn, wobei A n der Zelle 10 ist nun eine Ladelogik 30 ubergeordnet, die 
durch das Ergebnis von C n des vorher ausgefuhrten 65 mit den Multiplexern 56, 57, 58 und 59 verbunden ist und 
Programms gegeben ist: diese den gewtinschten Funktionen entsprechend an- 

n:0 <= n < — 9 steuert 
Es sollen die Produkte Q = (Ai+Bi)xBi mit i € N Sollen zum Beispiel die Signale A2 mit B5 verrundet 
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werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEF beziehungsweise "FONF" entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 
Soil zum Beispiel eine NAND-Verknupfung durchge- 
fuhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT steht dann das negierte 
UND-Ergebnisan. 

Patentanspruche 
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I. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung mit programmier- und konfigu- 
rierbarer Zellstruktur, wobei die Datenverarbei- 
tungseinrichtung eine Zellmatrix aus einer Vielzahl 
orthogonal zueinander angeordneter, homogen 
strukturierter Zellen, welche in ihrer Funktion und 
Vernetzung durch eine Ladelogik frei program- 
mierbar sind, enthalt, dadurch gekennzeichnet, 20 
daB 

a) ein Konfigurationsprogramm, bestehend 
aus einer Folge von Ladelogik-Befehlen, die 
jeweils die Funktion und Vernetzung der ein- 
zelnen Zellen angeben, so daB sich aus einer 25 
TeQ folge eine spezielle Konfiguration mit spe- 
zieller(en) Anwendung(en) ergibt, vorhanden 
1st, auf das die Ladelogik (30) Zugriff hat 
(Hg« 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wird, 30 

b) zunachst durch eine bestimmte Anzahl von 
Ladelogik-Befehlen eine Konfiguration 
(Fig. 20b) mit spezieller(en) Anwendung(en), 
mittels der Ladelogik (30) zu Beginn als Start- 
konfiguration in der Zell-Matrix (Fig. 2, Fig. 3) 35 
eingestelltwird, 

c) durch eine Statemachine (45) oder einen 
Komparator (48) die Beendigung der Durch- 
fuhrung einer Anwendung einer oder mehre- 
rer Zellen erkannt wird, 

d) durch die Erkennung eine Ruckmeldung an 
die Ladelogik (30) erfolgt, die die Programm- 
abarbeitung des Konfigurationsprogramms 
mit einer anderen Teilfolge (Fig. 21b, Fig. 22b) 
fortsetzt, welche nur Zellen umkonfiguriert, al- 
so neu ersteilt, die die Durchfuhrung ihrer 
Funktion fur die aktuelle Anwendung bereits 
beendet haben oder nicht benOtigt werden, so 
daB die Abarbeitung der Datenstrome der an 
der aktuellen Konfiguration noch beteiiigten, 50 
parallel (z. B. Register 41, 42) oder gepipelined 
(z. B. Hg. 22a, Summierer 141 und Multiplizie- 
rer 149) arbeitenden Zellen, die sich noch in 
der DurchfQhrung ihrer Anwendung befinden, 
nicht gestdrt wird. 55 

Z Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach Anspruch 1, dadurch ge- 
kennzeichnet, daB durch eine Priorisierungs-Logik 
(z, B. Fig. 19) das Umkonfigurieren der unabhangi- 
gen parallel oder gepipelined arbeitenden Zellen, 60 
einer Funktion oder Konfiguration in der optima- 
len richtigen Reihenfolge Qber eine Rflckmeldung 
an die Ladelogik sicherstellt wird 
3. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der AnsprUche 1 oder 65 
2, dadurch gekennzeichnet, daB die Operanden aus 
mehreren, beliebig vielen unabhangig adressierten 
und gesteuerten Speichern (Fig. 20a, Fig. 20c; 



40 



45 



RAMI, RAM2) bezogen werden und das Ergebnis 
in einen dieser Speicher (Fig. 20a, Fig. 20c; RAMI) 
oder einen davon unabhangigen oder eine separa- 
ten Datenkanal (Fig. 14, Fig. 15; IO) ausgegeben 
wird 

4. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet, daB zur besseren Ausla- 
stung der Vernetzung von Zellen, Busse mit Hilfe 
von zwischengeschalteten Schaltern (Kg. 18; Trei- 
ber) Verwendung finden, so daB Busse in unabhan- 
gige Abschnitte auf geteilt werden kdnnea 
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